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fi X. [目的 / 意义 ] 科技 文献 数据 资源 具有 覆 盖 广 、 数 量 大 、 类 型 多 、 更 新 块 、 时 效 强 等 特点 ， 为 提高 科技 文献 数据 管 
效果 和 数据 安全 ， 本 文 基于 数据 生命 周期 模型 对 科技 文献 管理 体系 进行 研究 。 [方法 / 过 程 ] 对 科技 文献 管理 模式 进行 探索 ， 
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基于 数据 管理 流程 ， 构 建 了 科技 文献 的 生命 周期 体系 ， 并 从 数据 创建 、 数 据 存 储 、 数 据 预 处 理 、 数 据 计 算 、 数 据 服务 、 数 据 
归档 、 数 据 销毁 等 7 个 阶段 对 数据 管理 工具 和 数据 管理 方法 进行 阐述 。 [结果 / 结论 ] 本文 对 科 瑞 唯 安 核心 数据 集 WOS BP 数据 
进行 了 基于 科技 文献 生命 周期 的 管理 和 实践 ， 同 时 基于 DAMA 数据 质量 的 6 个 评估 维度 对 数据 管理 效果 进行 综合 评价 。 
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1 引言 ， 数 据 使 用 者 必须 与 具备 专业 知识 领域 和 技 全 


eb om 
数据 是 一 种 重要 的 资产 m， 与 事物 资产 的 可 见 可 量 的 数据 。 

动 ， 财 务 资产 的 可 计 可 量 不 同 ， 数 据 资产 有 其 独特 的 中 国 科学 院 文献 情报 中 心 〈 以 下 简称 文献 中 心 ) 
ee 通过 集团 采购 、 资 源 置换 、 自 主 建 设 等 渠道 收集 了 大 
动态 应 用 性 、 多 状态 应 用 、 数 据 自生 产 等 。 数 据 管理 ” 量 的 科技 文献 ， 包 括 科技 图 书 、 科 技 期 刊 、 科 技 报告 、 
的 核心 是 确保 数据 的 质量 ， 如 果 数 据 未 能 满足 使 用 者 ”专利 文献 、 会 议 文献 、 学 位 论文 、 标 准 文献 等 。 这 些 
的 需求 ， 那 么 所 有 收集 、 存 储 、 安 全 加 固 、 使 用 数据 ”科技 文献 类 型 众多 ,来 源 广 泛 ， 族 聚 着 人 类 在 科技 控 
的 努力 都 是 无 用 的 。 据 IBM 估算 ，2016 F, 美国 由 于 — 索 过 程 中 的 经 验 和 智慧 @。 在 信息 化 迅速 发 展 的 当下 ， 
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如 何 对 这 些 科 技 文献 进行 有 效 、 高 效 的 管理 是 或 需 面 
对 和 解决 的 问题 ， 也 是 文献 中 心 科技 文献 管理 工作 发 
展 的 重要 方向 。 
国内 外 很 多 研究 团队 开展 了 科技 文献 管理 方法 的 
研究 和 科技 文献 管理 体系 的 建设 ， 如 云 安全 联盟 组 织 
为 云 环境 数据 提出 CSA 模型 上 中， 包括 创建 、 存 储 、 使 
用 、 共 享 、 存 档 和 销毁 ， 他 是 为 云 环境 设计 的 ， 重 点 
解决 了 数据 安全 ， 未 考虑 数据 质量 、 数 据 处 理 和 数据 
分 析 等 内 容 。 美 国 地 质 调查 局 数据 集成 社区 提出 采用 
USGS 模型 管理 数据 ， 包 括 计 划 、 获 取 、 处 理 、 分 析 、 
保存 和 发 布 /共享 ， 用 于 评估 和 改进 管理 科学 数据 的 政 
策 和 实践 ， 是 一 个 综合 的 模型 中 。 大 学 间 政 治 和 社会 
研究 联合 会 提出 采用 DDI 模型 "管理 数据 ， 包 括 研 究 
概念 、 数 据 收集 、 数 据 处 理 、 数 据 存 档 、 数 据 分 发 、 
数据 发 现 、 数 据 分 析 和 重新 调整 用 途 等 ， 是 一 个 全 面 
的 模型 ， 但 是 没有 对 数据 质量 和 数据 安全 的 关注 。 张 
迎 等 提出 了 科学 数据 管理 生命 周期 ， 并 从 获取 、 描 述 、 
存储 、 发 布 、 重 用 等 5 个 阶段 对 科学 数据 进行 管理 。 
但 当前 就 如 何 利用 生命 周期 理论 对 科技 文献 进行 
合 管理 和 有 效 利用 ， 以 及 采用 专业 的 衡量 标准 进行 
质量 评估 等 研究 还 处 在 初级 阶段 。 围 绕 基于 生 合 周期 
理论 对 科技 文献 进行 综合 管理 等 需求 ， 本 文 第 二 部 分 
论述 了 数据 生命 周期 管理 模型 ， 总 结 归 纳 符合 科技 文 
献 生 命 周期 发 展 的 阶段 和 模型 ， 本 文 第 三 部 分 重点 介 
绍 了 数据 管理 体系 研究 的 7 个 流程 ， 并 详细 说 明了 每 
个 阶段 的 管理 体系 建设 内 容 ， 本 文 第 四 部 分 创新 性 的 
以 WOS BP 数据 为 基础 开展 基于 生命 周期 的 数据 管理 
实践 ， 并 依照 数据 管理 目标 从 6 个 维度 进行 管理 实践 
与 综合 评价 ， 本 文 第 五 部 分 对 工作 进行 简要 总 结 ， 并 
对 未 来 工作 进行 展望 。 
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2 数据 生命 周期 管理 


2.1 数据 生命 周期 管理 模型 


数据 不 是 静止 的 ， 在 整个 生命 周期 中 ， 数 据 需 要 
被 清洗 、 转 换 、 合 并 、 增 强 等 。 不 同类 型 的 数据 具有 
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不 同 的 生命 周期 ， 这 加 大 了 数据 生命 周期 中 相关 概念 
的 复杂 性 。 如 事务 型 数据 可 以 通过 基本 业务 规则 得 到 
管理 ， 而 主 数据 需要 通过 数据 综合 处 理 得 到 管理 。 尽 
管 如 此 ， 仍 然 存在 一 些 生命 周 期 通用 规则 ， 适 用 于 任 
何 数据 。2018 年 国务 院 办 公 打 在 印发 《科学 数据 管理 
办 法 》w%9 时 指出 要 加 强 科 学 数据 全 生命 周期 管理 中 ， 
规范 科学 数据 的 采集 生产 、 加 工整 理 、 开 放 共 享 等 各 
个 环节 的 工作 。 同 时 也 将 科学 数据 管理 生命 周期 分 为 
数据 采集 和 交汇 、 数 据 保 存 、 数 据 共享 利用 、 数 据 保 
密 安 全 等 方面 。 

数据 生命 周期 管理 (Data Life Cycle Management， 
DLM) 是 一 种 基于 策略 的 方法 四， 着 重 于 数据 的 规划 
和 设计 、 使 数据 可 用 、 可 维护 ， 以 及 通过 应 用 数据 实 
现 组 织 的 目标 ， 最 终 达 到 可 被 需要 的 人 或 流程 所 使 用 
的 目的 。 通 常用 于 管理 数据 在 整个 生命 周期 内 的 流动 : 
从 数据 的 创建 和 初始 存储 、 变 化 、 迁 移 和 维护 到 它 过 
时 被 删除 的 全 过 程 吧 。 尽 管 数据 和 技术 是 交织 在 一 起 
的 ,但 是 不 能 把 数据 的 生命 周期 混淆 为 系统 开发 生命 
周期 (Systems Development Life Cycle，SDLC)， 因 为 
系统 开发 生命 周期 专注 于 在 预算 范围 内 按时 完成 项 目 
研发 任务 中 。 

数据 生命 周期 管理 模型 定义 从 生产 阶段 到 服务 阶 
段 的 数据 全 景 视 图 ， 目 标 是 优化 数据 管理 、 提 高 效率 、 
降低 成 本 。DAMA 数据 资产 管理 协会 作为 一 个 全 球 性 
的 数据 管理 协会 ， 致 力 于 数据 管理 的 研究 和 实践 原则 。 
DAMA 模型 包括 创建 或 获取 数据 、 移 动 、 转 换 和 存储 
数据 并 使 其 得 以 维护 和 共享 的 过 程 、 使 用 数据 的 过 程 
以 及 处 理 数 据 的 过 程 四 。 在 数据 的 整个 生命 周期 中 ， 
可 以 清理 、 转 换 、 人 合并、 增强 或 聚合 数据 ， 同 时 随 着 
数据 的 使 用 或 增强 ， 通 常会 生成 新 的 数据 ， 因 此 生命 
周期 具有 内 部 迭代 。 

基于 生命 周期 管理 的 数据 可 以 在 一 定 程度 上 提升 
数据 质量 ， 最 终 达 到 数据 使 用 者 的 期 望 并 满足 数据 需 
求 。 判 断 数据 质量 优 劣 的 标准 是 与 能 否 满足 数据 消费 
者 的 需求 一 致 为 基准 ， 一 致 则 属于 高 质量 数据 ， 反 之 ， 
不 适用 于 数据 使 用 者 的 数据 则 是 低 质量 数据 。 数 据 质 
量 维度 是 数据 的 可 测量 特性 或 属性 ， 为 了 评估 数据 的 
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质量 ， 需 要 建立 具体 可 行 的 衡量 维度 ， 这 些 维度 不 但 
对 业务 流程 很 重要 ， 而 且 具 备 可 测量 、 可 操作 的 特性 。 
2013 年 ，DAMA 英国 分 会 编写 的 数据 管理 白皮书 提出 
了 6 个 核心 的 数据 质量 评估 维度 吗 ， 分 别 是 : 完整 性 
(Completeness)， 是 评估 已 存储 数据 占 应 存储 数据 的 百 
分 比 。 唯 一 性 (Uniqueness)， 是 评估 任何 实体 的 记录 
会 不 会 出 现 多 次 。 实 时 性 (Timeliness) ， 是 评估 数据 
体现 特定 时 间 点 的 真实 程度 。 有 效 性 (Validity) ， 是 评 
估 数 据 是 否 符合 相关 定义 (格式 、 种 类 、 范 围 )。 准 确 
TE (Accuracy)， 是 评估 数据 描述 真实 世界 对 象 或 事件 
的 精确 度 。 一 致 性 (Consistency)， 是 评估 多 处 对 同一 
个 事物 的 描述 不 存在 差异 。 


2.2 科技 文献 生命 周期 研究 


DAMA 表示 数据 管理 是 基于 数据 生命 周期 的 管理 ， 
不 同类 型 的 数据 有 不 同 的 生命 周期 特征 。 科 技 文献 数 
据 中 具备 数据 量 大 、 文 件 类 型 多 、 获 取 方 式 和 格式 多 
样 、 更 新 频率 快 、 时 效 性 强 等 特点 ， 以 文件 类 型 多 为 
Bl. 科技 文献 通常 覆盖 期 刊 、 会 议 录 、 专 著 、 丛 书 、 
文集 汇编 、 工 具 书 、 课 程 、 研 究 论文 、 专 著 章 节 、 科 
技 报告 、 学 位 论文 、 课 件 等 多 个 类 型 。 此 外 ， 科 技 文 
献 数据 可 描述 内 容 的 颗粒 度 更 细 化 ， 如 JATS 数据 标准 
包含 了 250 余 个 元 素 和 130 余 个 元 素 属性 ，NSTL 统一 
文献 元 数据 标准 包含 97 个 描述 性 元 素 、53 个 辅助 性 元 
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数据 预 处 理 阶段 
图 1 科技 文献 生命 周期 模型 


Fig.1 Life cycle model of scientific and technical literature 


素 和 49 个 属性 四。 同时 ， 科 技 文献 数据 组 织 模块 化 加 
强 ， 通 过 对 细 粒 度 元 素 的 组 合 形成 相对 独立 又 相互 关 
联 的 实体 模块 ， 如 期 刊 、 论 文 、 会 议 、 基 金 、 贡 献 者 、 
机 构 等 多 个 实体 模块 。 

本 文 将 科技 文献 数据 的 全 生命 周期 阶段 主要 归纳 为 
创建 、 存 储 、 预 人 处理、 计算、 服务、 归档、 销毁 等 7 个 
阶段 ， 可 以 在 科技 文献 中 进行 普 适 性 应 用 。 如 图 1 所 示 ， 
数据 在 每 个 阶段 呈现 不 同 的 活跃 度 ， 在 数据 计算 阶段 
和 数据 服务 阶段 达到 峰值 ， 在 数据 销毁 阶段 达到 谷 值 。 

数据 创建 阶段 收集 从 多 个 来 源 获 取 的 商业 采购 数 
据 、 开 放 获取 数据 、 中 心 自 建 数 据 和 交换 获取 数据 等 ， 
通过 网 络 接口 获取 、 公 开 网 页 采集 、 数 据 库 直接 导入 、 
硬件 批量 拷贝 、 网 络 集中 下 载 等 多 种 接 和 人 形式， 获取 
期 刊 论 文 、 会 议论 文 、 科 技 报告 、 科 技 专 利 、 基 金 项 
目 、 科 技 资讯 、 图 书 专著 、 科 技 政策 等 各 个 类 型 数据 。 

数据 存储 阶段 针对 不 同体 量 、 结 构 的 数据 进行 个 
性 化 存储 设计 。 对 无 需 复杂 操作 的 小 体 量 数据 采用 本 
地 文件 系统 存储 形式 ， 利 用 单 台 服 务 器 满足 对 文件 数 
据 、 源 数据 、 中 间 数 据 的 存储 需求 。 对 无 需 复杂 操作 
的 大 体 量 数据 采用 分 布 式 存储 形式 ， 利 用 多 人 台 服 务 器 
满足 对 大 文件 数据 的 存储 需求 。 对 需要 复杂 操作 的 结 
构 化 数据 采用 数据 库存 储 形式 ， 对 常规 业务 数据 、 监 
测 日 志 数据 等 进行 存储 。 
数据 预 处 理 阶段 可 以 从 字段 抽取 、 信 息 转 换 、 数 
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据 清洗 、 数 据 校 验 、 数 据 索引 等 5 个 方面 进行 。 将 非 
结构 化 数据 转化 为 符合 统一 标准 的 结构 化 数据 ， 或 者 
将 一 种 形式 的 结构 化 数据 转化 为 男 一 种 形式 的 结构 化 
数据 ， 对 相关 字段 进行 抽取 、 清 洗 、 加 工 ， 以 获取 更 
丰富 更 标准 的 数据 ， 基 于 服务 需求 设 定 索引 数据 ， 为 
了 后 续 计 算 、 服 务 更 方便 、 灵 活 。 

数据 计算 阶段 是 科技 文献 在 整个 生命 周期 中 最 活 
跃 的 阶段 ， 也 是 数据 最 具 操 作 性 、 最 丰富 的 阶段 ， 主 
要 是 从 数据 加 工 、 数 据 丰 富 化 、 数 据 融合 、 实 体 和 关 
系 抽取 等 4 个 方面 展开 ， 对 数据 进行 集中 的 治理 和 计 
算 ， 以 产生 更 具 使 用 价值 的 科研 数据 。 

数据 服务 阶段 是 将 前 期 已 经 处 理 和 计算 生成 的 数 
据 通 过 各 类 服务 形式 稳定 、 高 效 地 进行 数据 交互 并 输 
出 数据 ， 提 供 基础 数据 服务 和 增值 数据 服务 ， 同 时 支 
持 面 向 用 户 需 求 定制 开发 优质 的 、 高 效 的 数据 服务 ， 
基于 权限 控制 和 访问 监控 保障 数据 服务 安全 。 

数据 归档 阶段 是 将 不 再 经 常 使 用 的 数据 迁移 到 一 
个 单独 的 存储 设备 来 进行 长 期 、 有 效 保存 的 过 程 ， 这 
类 数据 通常 是 由 旧 的 数据 组 成 ， 但 又 是 以 后 必须 参考 
且 很 重要 的 数据 ， 需 要 长 期 存储 和 长 期 可 获取 ， 因 此 
在 归档 时 必须 遵从 相应 的 规则 进行 。 

数据 销毁 阶段 是 指数 据 服 务 到 期 后 进行 销毁 的 过 
程 ， 通 常 采用 对 数据 及 数据 的 存储 介质 物理 删除 的 操 
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作 手 段 ， 使 数据 彻底 丢失 且 无 法 恢复 。 为 保证 后 续 审 
计 需 要 ， 在 销毁 时 需要 对 销毁 内 容 、 时 间 、 方 式 、 核 
准 部 门 及 人 员 等 信息 进行 登记 审核 。 


3 数据 管理 体系 研究 


3.1 数据 管理 流程 


基于 生命 周期 进行 数据 管理 的 流程 主要 分 为 : 数 
据 创建 登记 、 数 据 解析 存储 、 数 据 加 工 处 理 、 数 据 集 
成 计算 、 数 据 服务 应 用 、 数 据 归 档 保 存 、 数 据 销毁 记 
录 等 ， 如 图 2 所 示 。 


3.2 数据 管理 体系 


3.2.1 数据 创建 阶段 

在 数据 创建 阶段 主要 进行 数据 创建 和 登记 ， 科 技 
文献 数据 来 源 主 要 分 为 3 种 类 型 ， 商业 采购 数据 、 开 
放 获 取 数 据 、 内 部 自 建 数据 。 各 数据 来 源 提供 不 同 的 
数据 获取 方式 ， 有 些 方式 利于 形成 机 器 自动 化 例 行 服 
务 ， 有 些 方式 需要 人 工 操作 获取 数据 ， 有 些 方式 利于 
频繁 地 、 轻 量化 的 获取 数据 ， 有 些 方式 则 适用 于 大 量 
数据 的 快速 传递 。 每 一 种 来 源 都 有 其 独特 的 数据 接 和 人 
形式 ， 如 表 1 所 示 。 


数据 创建 登记 > 数据 解析 存储 数据 加 工 处 理 数据 集成 计算 数据 服务 应 用 数据 归档 保存 
科技 文献 数据 源 — 数据 解析 清洗 加 工 丰富 计算 数据 微服 务 归档 服务 一 一 ARAR 
- ae 
EN JSON 内 容 清洗 数据 增值 EET 归档 策略 ”| 。 | C S 
J ! | 
a = mr FE | | MU —— 
n 
wea XML | 格式 规范 数据 填充 AES ma | Patin 
一 -一 一 一 一 —s g EA | 
ee = ies 
分 类 体系 — 数据 关联 ARE | | 丰 人 策略 BIRER 
Ba | | n 
EN 标识 符 专家 团队 加 工 指标 计算 微服 务 | 访问 策略 j | 销毁 安全 


图 2 数据 管理 流程 


Fig.2 Data management processes 
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表 1 科技 文献 数据 来 源 和 接 入 形式 


Table 1 Sources and access forms of scientific and technical literature data 


数据 来 源 来 源 描述 数据 类 型 数据 接 入 形式 
商业 采购 数据 通过 商业 购买 获取 的 商业 数据 “期刊 论文 ; 会 议论 文 ; 学 位 论文 ; 科技 ”OAI 协议 下 载 ， 数 据 库 导 入 ;移动 存储 介质 拷贝 ; 
资源 报告 ， 科 技 专利 等 FTP、SCP、 网 盘 、 邮 件 等 形式 下 载 等 
开放 获取 数据 通过 各 类 工具 和 形式 获取 的 公 ”开放 论文 ; 基金 项 目 ， 科技 政策 ; 科技 ”公开 数据 接口 获取 ; 网 络 页 面 采 集 ， 网 盘 文 件 、 邮 件 
开 数据 资讯 等 等 形式 下 载 ，Github 等 公开 语料库 数据 下 载 等 
内 部 自 建 数 据 通过 中 心 自主 构建 或 与 其 他 团 ”业务 专用 数据 ; 服务 日 志 数 据 ; 基于 数 — 数据 库 导入 ， 移动 存储 介质 拷贝 等 
队 交 换 获 取 的 数据 资源 据 产 生 的 处 理 数据 等 


不 同 来 源 的 数据 ， 接 入 形式 各 异 ， 因 此 需要 个 性 
以 满足 在 数据 创建 阶段 对 数据 资产 
取 、 数 据 库 导入 、 


化 定制 多 种 . 
的 完整 接 入 ， 如 表 2 所 示 ， 从 接口 获 
存储 介质 拷贝 、 网 络 下 载 、 网 络 采集 等 方面 对 数据 创 
建 工 具 进 行 设计 。 


工具 


A, 


322 数据 存储 阶段 


在 数据 存储 阶段 主要 进行 数据 解析 和 存储 ， 通 过 
各 类 接 入 形式 获取 的 科技 文献 数据 主要 是 XML 、 数 据 
表 、JSON、 文 本 文件 等 4 种 类 型 ， 对 比 这 几 种 类 型 数 


据 主 要 有 以 下 特点 ， 如 表 3 所 示 。 


计 统 一 的 文献 元 数据 存储 体系 ， 对 各 类 型 数据 进行 统 
一 存储 ， 有 助 于 人 处理、 维护、 集成、 包含、 审计 和 管 


据 本 身 ， 如 数据 库 、 数 据 元 素 、 数 据 模型 ， 数 据 所 代 
表 的 概念 ， 如 业务 流程 、 应 用 系统 、 软 件 代码 BOR 
基础 设施 ; 数据 和 概念 之 间 的 连接 和 关系 等 ， 主 要 包 
含 了 业务 元 数据 、 技 术 元 数据 和 操作 元 数据 3 类 ， 如 


表 4 所 示 。 


据 资 
数据 内 容 、 系 统 业务 流程 等 。 以 业务 元 数据 为 例 ， 根 
据 各 来 源 数据 组 织 结构 的 特点 ， 为 每 类 实体 设计 独立 


经 过 统一 文献 元 数据 存储 体系 描述 的 科技 文献 数 
源 可 以 更 好 的 解释 、 组 织 、 理 解 各 类 型 数据 结构 、 


存储 结构 ， 数 据 组 织 、 字 段 命名 符合 JATS 数据 标准 、 
综合 分 析 科 技 文献 数据 的 各 种 数据 格式 特点 ， 设 NSTL 统一 文献 元 数据 标准 等 相关 规范 ， 如 图 3 所 示 为 


理科 技 文 献 数据 。 文 献 元 数据 存储 体系 重点 描述 了 数 


数据 接 入 形式 


数据 创建 工具 


科技 论文 元 数据 结构 。 
3.2.3 ”数据 预 处 理 阶段 


在 数据 预 处 理 阶 段 主要 进行 数据 加 工 和 处 理 ， 建 


表 2 数据 创建 工具 


Table 2 Data creation tools 


数据 接 入 形式 特点 


各 类 接口 获取 


数据 库 导 入 


移动 存储 介质 拷贝 


FTP、SCP、 网 盘 、 邮 建立 数据 下 载 工 具 ， 


件 等 形式 下 载 
网 络 页 面 采 集 


Github 等 公开 语料库 ”建立 数据 同步 工具 ， 


数据 下 载 


， 基 于 传递 过 程 中 的 格式 、 参 数 、 标 


建立 数据 协议 工具 
完 


建立 数据 解析 工具 
进行 实质 定义 


建立 数据 传递 工具 ， 


完成 明确 的 定义 


， 基 于 数据 库 中 的 数据 项 和 数据 描述 


基于 移动 便 盘 、 
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光盘 等 媒介 进行 数 


基于 传统 的 数据 传输 协议 下 载 数 据 


最 常用 的 数据 接 入 形式 


旧 数 据 迁移 的 常用 形式 


适用 于 接 入 频率 低 ， 单 次 数据 量 较 大 的 数据 源 。 需 要 人 工 参与 
操作 ， 无 法 实现 自动 获取 

适用 于 一 次 性 获取 或 异常 状态 时 临时 替代 传输 形式 ， 数 据 量 大 
时 效率 很 高 。 但 传输 过 程 中 文件 可 能 会 损坏 ， 缺 少校 验 机 制 


具 ， 基 于 网 络 页 面 的 公开 数据 进行 定向 


基于 公开 语料库 按 需 获取 数据 


适用 于 稳定 页 面 的 数据 采集 ， 页 面 内 容 如 有 变动 需要 重新 定制 
采集 工具 
适用 于 专业 特色 数据 获取 
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表 3 数据 格式 和 特点 


Table 3 Data formats and features 


数据 格式 特点 缺点 
XML 使 用 较 广 泛 的 文件 类 型 ， 有 通用 的 格式 定义 ， 利 于 数据 传输 “各 数据 来 源 的 XML 格式 各 不 相同 ， 需 要 为 每 种 数据 源 进 行 详细 
过 程 中 的 校 验 配置 
数据 库 字段 定义 清除 明确 ， 便 于 字段 映射 二 维 结构 难以 描述 字段 之 间 的 关联 关系 ， 多 值 处 理 较为 繁 珊 。 数 
据 量 大 时 效率 较 低 
JSON 数据 结构 灵活 ， 操 作 方便 ， 传 输 效 率 高 ， 软 件 环境 兼容 性 好 ”缺少 错误 处 理 机 制 ， 安 全 性 差 
文本 文件 最 轻便 的 文件 类 型 ， 没 有 额外 的 编码 需求 或 格式 需求 缺少 格式 定义 导致 描述 形式 五 花 八 门 ， 解 析 上 映射 极为 困难 。 缺 少 


格式 校 验 导 致 错误 难以 被 发 现 。 已 很 少 使 


表 4 科技 文献 元 数据 存储 体系 


Table 4 Metadata storage System for Scientific and technical literature 


8t 


元 数据 类 型 描述 范围 示例 

业务 元 数据 数据 内 容 和 状态 ， 与 数据 治理 相关 的 细节 概念 ， 主 题 域 ， 实 体 和 属性 等 非 技术 性 的 名 称 和 定义 ;属性 类 型 和 其 它 属性 特 
AE; 范围 的 描述 ， 计 算 规 则 ， 算 法 和 业务 规则 ， 有 效 的 阔 值 范围 等 

技术 元 数据 数据 技术 细节 ， 数 据 迁移 的 过 程 信息 存储 数据 的 系统 等 

操作 元 数据 数据 处 理 和 访问 的 详细 信息 报告 和 查询 访问 模式 ， 频 率 和 执行 时 间 ; 备份 、 保 留 、 创 建 日 期 、 灾 难 恢复 的 


相关 规定 等 


access_ext-link“:” [[[]], [[]], [[]], [[V http: //dx. doi. org/10. 1016/50040-6090 (96)089| 
access ext-link-display:" [[[V http: //dx. doi. org/10. 1016/50040-6090 (96)08956-0" ]| 
access ext-link-display ik": ^ [[[V http: //dx. doi. org/10. 1016/S0040-6090 (96) 08956-0| 
access ext-link ik": [[[]], [[]], [[]], LA http: //dx. doi. oxg/10. 1016/50040-6090 (96)| 


"article abstract ^: [[[V Sn02 thin films were prepared by the sol-gel process usin| 


设 数据 预 处 理工 具 ， 实 现 对 各 类 型 数据 的 格式 预 处 理 、 
解析 、 转 换 、 结 构 化 ， 并 存储 到 目标 存储 系统 ， 如 图 4 
所 示 。 


chinaXiv 


首先 ， 根 据 数据 来 源 、 数 据 量 、 接 收 方式 、 接 收 
频率 的 不 同 ， 通 过 简单 配置 数据 解析 规则 ， 归 纳 高 复 
用 的 数据 解析 模块 ， 设 计 基 于 HTML、CSV、XML 和 
JOSN 等 4 套 主要 格式 的 数据 解析 引擎 ， 形 成 一 套 半 自 
动 的 数据 结构 化 解析 处 理 机 制 ， 实 现 对 数据 资源 的 自 


(4)2C(2)H(5)0H as the precursor. After subsequent annealing, the temperature of which 
ised silicon, glass or ceramic glass), the films were characterised by scanning elect] 
er electron spectroscopy. The sensitivity of these films to variations in humidity wai 
93% relative hunidity.V]]]^, 


"article abstract ik^:"[[[V Sn02 thin films were prepared by the sol-gel process u 


(4)2C(2)H(5)0H as the precursor. After subsequent annealing, the temperature of which 
ised silicon, glass or ceramic glass), the films were characterised by scanning elect] 


er electron spectroscopy. The sensitivity of these films to variations in humidity waj 


93% relative hunidity.V]]]^, 


"article article-id":^ [[[\“Wos:a1997¥k35900048\"]], [[\“wk359\"]]]~, 
"article article-id-special: ^ [[[\“WOSBP:WOS:41997¥K35900048\"]], [[\“WoSArchive: Wol 
“article_article-id-special_ik”:” [[[\"WOSBP:¥OS:A1997¥K35900048\"]], [[\“WoSArchive} 
"article article-title":" [[[\"sno2thinfilmspreparedbythesolgelprocess\"]]]*, 
article article-title-en":^[[[V SnO 2 thin films prepared by the sol-gel process\| 
article article-title-en ik": [[[V SnO 2 thin films prepared by the sol-gel proce 
article article-title display^: [[[V Sn02 thin films prepared by the sol-gel proc 
article article-title display ik": [[[V 5n02 thin films prepared by the sol-gel pj 
article article-title ik":" [[[V sno2thinfilnspreparedbythesolgelprocessV']]]^, 
article article-type :  [[[V ArticleV']]]^, 

article article-type-display^: [[IV BEBE SV 1117, 

article article-type-display ik:  [[[V BEIGE SC 1117, 

"article article-type ik":  [[[V ArticleV]]]^, 

"article date^:^ [[[A71997-01-5V7]]]^, 

"article date ik": [[[\“1997-01-5\"]]]*, 

"article harvest-language bg : [[[V EV 1]] ^, 


图 3 科技 论文 元 数据 结构 样 例 


Fig.3 Example ofa technical paper metadata structure 


助 收割 兼 具 批 量 运 行 的 数据 组 件 ， 为 数据 深加工 做 好 
支撑 工作 。 

然后 ， 对 多 来 源 数据 进行 解析 、 规 范 化 ， 生 成 符 
合 元 数据 标准 格式 的 数据 仓库 ， 同 时 构建 镜像 索引 ， 
为 数据 计算 提供 离线 、 在 线 的 读 取 基 础 。 同 时 完成 定 
时 功能 实现 部 分 数据 源 的 自动 更 新 。 

最 后 ， 对 汇集 的 具体 字段 如 学 者 、 机 构 、 关 键 词 、 
来 源 等 内 容 进 行规 范 化 处 理 ， 保 证 从 各 数据 源 采 集 来 
的 数据 可 以 进行 统一 的 清洗 、 规 范 、 管 理 和 使 用 。 同 
时 不 断 完善 清洗 规则 、 清 洗 库 ， 清 理 匈 余 字 段 ， 提 升 
数据 质量 ， 为 应 用 服务 提供 有 效 的 数据 支撑 。 
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HDFS 源 文件 库 


XML 文 件 


JSON 文 件 


数据 库 文件 


自 有 格式 


通用 解析 引擎 


XML 解析 引擎 
JSON 解 析 引 擎 


Hive 数 据 仓 库 


ive/pageone LogData 
ive/pet. LogData 


离线 计算 


图 4 数据 预 处 理 流程 


Fig.4 Process of data pre-processing 


3.2.4 数据 计算 阶段 

在 数据 计算 阶段 主要 进行 数据 集成 和 计算 ， 主 要 
涉及 的 关键 步 又 包括 数据 丰富 化 加 工 、 实 体 关系 抽取 
和 知识 图 谱 构建 等 。 

数据 丰富 化 是 基于 数据 已 有 特征 进行 信息 扩展 ， 
提升 数据 信息 量 。 例 如 基于 文献 元 数据 进行 增强 关键 
词 扩 展 ， 基 于 摘要 进行 知识 元 扩展 ， 基 于 内 容 进行 中 
图 分 类 法 扩展 等 。 数 据 加 工 通常 是 人 工 参与 的 数据 加 
工 工作 ， 是 最 常见 的 数据 质量 提升 途径 。 加 工 过 程 一 


配置 MR 启动 参数 


启动 MR 作业 


排 重 字段 抽取 


般 分 为 加 工 编 辑 和 审核 两 个 阶段 ， 具 有 较 高 的 数据 质 
量 保障 。 数 据 融合 是 对 同一 数据 的 多 源 处 理 策略 ， 通 
常 采 用 优先 级 筛选 和 优先 占 位 策略 ， 对 不 同 来 源 不 同 
类 型 的 数据 确定 优先 等 级 ， 质 量 越 高 的 数据 优先 级 越 
高 ， 融 合 时 使 用 来 源 等 级 更 高 的 数据 字段 覆盖 来 源 等 
级 低 的 字段 。 当 数据 字段 不 能 独立 支撑 数据 融合 时 ， 
可 以 采取 信息 块 的 模式 进行 综合 融合 ， 如 图 5 为 数据 
融合 流程 设计 。 


数据 中 往往 记录 了 多 个 维度 或 实体 的 信息 ， 实 体 


构建 行 排 重 串 


新 数据 建 索 
引 


循环 处 理 每 条 数据 


图 5 数据 融合 流程 设计 


Fig.5 Design of data fusion process 
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抽取 是 基于 预 处 理 和 丰富 化 加 工 后 的 数据 ， 根 据 应 用 
需求 或 知识 图 谱 的 设计 ， 定 义 科研 实体 和 实体 间 的 多 
维 关系 模型 ， 从 科技 文献 元 数据 中 提取 结构 化 知识 、 
显 化 数据 间 的 关联 关系 、 挖 据 更 深层 次 的 数据 内 涵 、 
构建 学 术 知 识 网 络 关系 ， 形 成 数据 知识 图 谱 ， 文 撑 科 
技 文献 数据 间 的 关联 信息 揭示 ， 支 持 智能 知识 服务 能 
力 。 比 如 从 一 篇 文献 中 抽取 的 多 个 作者 实体 ， 隐 含 着 
合作 作者 的 关系 。 
32.5 数据 服务 阶段 

在 数据 服务 阶段 主要 进行 数据 服务 和 应 用 ， 数 据 
仿 索 是 数据 服务 的 主要 形式 之 一 ， 是 将 数据 价值 显 化 
的 重要 手段 。 采 用 SpringCloud 分 布 式 技术 体系 ， 设 计 
基于 Eureka, Ribbon, Security, Springboot 等 组 件 的 
微服 务 架 构 ， 通 过 Restful API 接 口 实现 对 应 用 的 支撑 。 
微服 务 技术 具有 扩展 灵活 、 部 署 方便 、 自 动 负载 均衡 
等 特点 ， 以 集群 模式 为 多 业务 提供 强 稳定 、 高 性 能 、 
低 延迟 的 数据 服务 。 如 图 6 是 数据 服务 架构 。 

首先 ， 构 建 多 节点 数据 注册 总 线 ， 实 现 动态 服务 
代理 ， 提 供 总 线 基 础 管理 : 查看 总 线 使 用 状态 接口 ， 
配置 安全 、 注 册 、 监 控 等 功能 ， 通 过 发 布 订阅 通信 应 
用 程序 共享 信息 ， 通 过 核心 的 消息 系统 负责 连接 端点 
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和 他 们 之 间 路 由 器 ， 以 实现 数据 总 线 的 合理 配置 。 

其 次 ， 构 建 基础 设施 管理 群 和 服务 提供 群 ， 部 署 
登录 服务 、 配 置 服务 、 查 询 服 务 等 多 个 应 用 服务 ， 可 
共享 数据 通路 ， 也 可 独立 部 署 使 用 。 

最 后 ， 构 建 业 务 服务 消费 群 ， 部 署 数据 监控 服务 ， 
数据 分 析 服 务 、 用 户 画 像 服 务 、 检 索 系 统 服务 等 ， 同 
时 支持 各 类 业务 服务 的 灵活 扩展 ， 只 需要 遵循 协议 对 
接 到 数据 总 线 即 可 。 用 户 根据 需求 和 应 用 类 型 选择 适 
当 的 接口 ， 通 过 简单 配置 了 一 、 数 据 通 路 offset 等 信 
息 ， 即 可 通过 总 线 轻 松 获取 数据 。 

3.2.6 数据 归档 阶段 

在 数据 归档 阶段 主要 进行 数据 的 归档 和 保存 ， 在 
大 数据 成 为 了 关键 资源 的 今天 ， 归 档 各 种 类 型 的 数据 
是 非常 重要 的 ， 是 数据 量 和 数据 体 量 积 累 的 重要 阶段 。 
在 数据 归档 时 既 要 考虑 存储 海量 数据 的 设备 成 本 ， 也 
要 考虑 存储 海量 数据 的 时 间 成 本 。 

基于 整个 数据 生命 周期 ， 制 定 符合 业务 需求 的 数 
据 归档 策略 。 首 先是 识别 哪些 数据 应 该 被 归档 ， 以 及 
需要 被 归档 多 长 时 间 。 其 次 ， 根 据 数 据 特性 将 数据 存 
储 在 相应 的 存储 设备 上 ， 始 终 将 归档 数据 保留 在 高 性 
能 存储 平台 上 ， 会 导致 不 必要 的 成 本 和 人 力 资源 的 消 


e Spring Cloud 


检索 Eau T. 
服务 国 服务 | 服务 


服务 提供 


Spring Cloud 
S ity 


微服 务 技术 选 型 


图 6 数据 服务 架构 设计 


Fig.6 Design of data service architecture 
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耗 。 对 经 常 使 用 的 数据 且 重 要 级 别 较 高 的 数据 ， 归 档 
在 高 成 本 、 高 容量 的 存储 系统 上 ， 比 如 固态 硬盘 ; 对 
经 常 使 用 的 数据 且 重 要 级 别 一 般 的 数据 ， 归 档 在 低 成 
本 、 高 容量 的 存储 系统 上 ， 比 如 磁盘 阵列 ; 对 不 经 常 
使 用 但 重要 级 别 较 高 的 数据 ， 归 档 在 低 成 本 、 高 容量 
的 存储 系统 上 ， 比 如 磁带 设备 ; 对 不 再 使 用 的 数据 直 
接 物理 删除 。 最 后 ， 制 定数 据 访问 策略 和 安全 机 制 ， 
对 有 具备 访问 归档 数据 的 用 户 赋予 相关 权限 。 
3.2.7 数据 销毁 阶段 

在 数据 销毁 阶段 主要 进行 数据 的 销毁 和 记录 ， 数 
据 销 毁 阶 段 是 指数 据 到 期 后 进行 销毁 的 过 程 ， 数 据 生 
命 周 期 的 最 后 阶段 需要 安全 销毁 ， 需 要 制定 销毁 计划 , 
来 定义 进行 数据 销毁 的 时 间 和 方式 。 通 常 可 以 通过 机 
器 方式 或 人 工 方式 进行 在 线 数 据 销 毁 和 归档 数据 销毁 。 
同时 ， 为 保障 后 续 业 务 需要 ， 应 对 销毁 的 数据 内 容 、 
销毁 时 间 、 销 毁 方 式 、 销 毁 人 员 等 信息 进行 登记 ， 以 
确保 数据 销毁 的 安全 性 和 全 面 性 。 


序号 。 字段 名 Era 有 值 数 据 量 
1 record.article.uid WOSAS 63,567,286 
2 record.article.sort-date sort 日 期 63,567,286 
3 record article.cover-date cover 日 期 63,567,286 
4 record.article.pub-year 出 版 年 份 63,567,286 
5 record.article.pub-month 出 版 月 52,888,344 
6 record article. fpage 论文 起 始 页 54,694,828 
7 record article Ipage 论文 结束 页 54,694,828 
8 record.article.page-count 论文 页 数 63,567,286 
9 record .article.page-range 页 码 范 围 54,694,825 
10 record article. ea-year 提前 出 版 年 2,246,288 
11 record.article.ea-month 提前 出 版 月 2,246,288 
12 record article ea-date 提前 出 版 日 期 2,246,288 
13 record article.type 论文 类 型 63,567,286 
14 record article type-norm 范 化 论文 类 型 63,567,286 
15 record article abstract 论文 摘要 40,405,197 
16 record article.accession-id 论文 传递 号 63,567,286 
17 record article.doi 论文 doi 46,954,405 
18 record.article.pmid PMID 号 25,615,856 
19 record article language 文献 语种 63,567.286 

20 record.article.language-norm 范 化 文献 语种 63,567.286 
21 record articletitle 文献 标题 63,567,286 
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4 数据 管理 实践 与 评价 


基于 科 害 唯 安 核心 数据 集 ， 从 数据 接收 、 数 据 存 
储 、 数 据 处 理 、 数 据 计算 、 数 据 服务 、 数 据 归 档 、 数 
据 销毁 7 个 阶段 严格 按照 本 文 设计 的 数据 管理 体系 开 
展 基于 生命 周期 的 WOS BP 数据 管理 实践 。 然 后 依照 
数据 管理 目标 从 完整 性 、 唯 一 性 、 实 时 性 、 有 效 性 、 
准确 性 、 一 致 性 等 6 个 维度 进行 管理 实践 与 综合 评价 。 
最 后 ， 依 据 评价 结果 得 出 结论 : 本 文 提出 的 基于 生命 
周期 理论 的 科技 文献 管理 体系 适用 性 良好 。 下 面 就 具 
体 的 评价 指标 进行 说 明 。 


4.1 完整 性 


JL TE 


完整 性 是 评价 数据 缺失 的 情况 ， 包 括 记录 数 缺 失 、 
字段 缺失 ， 属 性 缺失 等 ， 可 以 在 数据 接 入 前 或 接 人 后 
进行 监控 。 以 数据 字段 完整 性 监测 为 例 ， 在 数据 接 和 人 
后 ， 对 147 个 数据 项 进行 监测 (图 7), ， 实 时 评估 有 值 


空 信 数据 量 有 值 / 空 值 占 比 

490,397 Tr c 7 LM 
490,397 [99239 TH |] 
490,397 Lasan = O o O O] 
490,397 1 9923% YA) 
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图 7 数据 完整 性 评价 
Fig.7 Evaluation of data integrity 
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数据 字段 和 空 值 数据 字段 ， 对 比 有 值 / 空 值 占 比 ， 得 出 
数据 完整 性 评价 。 据 统计 ， 截 止 到 2021 年 12 H, 147 
个 数据 项 有 值 占 比 为 599.75% ， 必 备 字段 (WOS AG 
号 、 出 版 年 份 、 文 献 标 题 、 作 者 名 称 、WOS 分 类 、 发 
表 期 刊 标题 等 ) 有 值 占 比 为 99.22%。 


4.2 唯一 性 


唯一 性 是 评价 数据 重复 的 情况 ， 包 括 数据 实体 是 
否 重 复 、 属 性 是 否 重复 等 ， 可 以 在 数据 接 入 前 或 接 入 
后 进行 监控 。 针 对 WOS BP 数据 设计 专业 数据 字典 
(图 8)， 定义 12 类 数据 模块 ， 覆 盖 文 献 、 作 者 、 图 书 、 
分 类 、 会 议 、 通 讯 作 者 、 基 金 项 目 、 作 者 机 构 、 出 版 
信息 、 参 考 文献 、 作 者 信息 、 发 表 期 刊 等 内 容 ， 通 过 
对 数据 内 容 进 行 监控 约束 ， 避 免 出 现 数据 重复 的 情况 。 
以 数据 入 藏 号 为 例 ， 数 据 唯一 性 达到 99.23%。 


4.3 实时 性 


实时 性 是 评价 数据 及 时 的 情况 ， 是 评估 数据 体现 
寺 定 时 间 点 的 真实 程度 ， 包 括 数 据 从 发 表 到 接收 的 实 
时 性 、 数 据 从 接 入 到 服务 的 实时 性 ， 可 以 在 数据 接 入 
后 进行 监控 。 以 数据 从 接 入 到 服务 的 实时 性 为 例 ， 以 
接收 第 23 周 数据 后 和 WOS 官方 6.4 日 数据 量 对 比 : 


= 
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1980—2019 年 历史 数据 相差 很 小 ， 个 位 数 到 十 位 数 之 
间 ; 2020 年 数据 相差 百 位 数 ; 2021 年 数据 相差 千 位 
数 ， 是 数据 处 理 的 正常 范围 ， 如 图 9 所 示 。 


4.4 有 效 性 


有 效 性 是 评价 数据 项 符合 规则 和 定义 的 情况 ， 包 
括 数据 项 是 否 符合 类 型 、 格 式 、 种 类 、 范 围 等 约束 ， 
是 否 符 合 业 务 逻 辑 ， 是 否 符合 值 域 约束 等 ， 可 以 在 数 
据 接 入 后 进行 监控 。 以 数据 项 是 否 符合 类 型 约束 为 例 ， 
为 147 个 数据 项 分 别 定义 数据 属性 区 间 和 类 型 备 选 ， 
严格 控制 每 个 数据 项 符合 应 有 的 类 型 约束 。 


4.5 准确 性 


准确 性 是 评价 数据 错误 情况 ， 包 括 数据 集合 、 数 
据 条 数 、 数 据 项 等 内 容 是 否 与 真实 数据 保持 一 致 ， 可 
以 在 数据 接 入 后 进行 监控 。 以 数据 项 准确 性 评价 为 例 ， 
随机 抽取 一 条 数据 记录 ， 对 比 WOS 官网 数据 内 容 ， 包 
括 文献 信息 、 发 表 信息 、 分 类 信息 、 作 者 信息 、 基 金 
项 目 信 息 等 (图 10)， 数 据 准确 性 为 100%。 


4.6 一 致 性 


一 致 性 是 评价 数据 符合 标准 的 情况 ， 也 是 多 次 对 


描述 是 否 分 词 多 值 样 例 

WOS 入 藏 号 8 8 WOS:000207855400025 

sort E HB 8 A 2020-04-01 
Ver 日 期 否 否 APR 2020 

出 版 年 份 否 E 2020 

出 版 月 E 否 DEC 14 

论文 的 起 始 页 码 否 8 535 

论文 的 结束 页 码 8 a 542 

论文 页 数 否 a 8 

起 始 页 -结束 页 否 A 535-542 

提前 出 版 年 8 8 2019 


确定 #28 10 条 页 ~ 


图 8 数据 唯一 性 评价 


Fig.8 Evaluation of data uniqueness 
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4 A B c D E F G H | Q R 
1| $8 isi ssci Bm ABAR | 重复 数据 | 有 效 数据 | 核对 数据 |6.4 日 WOS 官 网 数据 |Q-H 
2 | 1980 569397| 118874| 659291 0 896| 658395| 658395 658,395 0 
3 1981 593282| 117733| 680126, 0 679439 0 
4 1982 622978| 121864| 712594 0 711895 0 
5 1983 680727| 125181 0 769990 0 
6 1984 695453! 123652 0 185624 0 
了 1985 698076| 122363| 789210 0 490| 788720| 788720 788,721 1 
8 1986 709704| 122323| 803285 0 584| 802701| 802701 802.701 0 
9 1987 720625| 121463| 820106 0 524| 819582| 819582 819,582 0 
10, 1988 703499, 118695| 800862 0 523|  800339| 800339 800,339 0 
11) 1989 663400] 117641! 761246 0 1286| 759960| 759960 759,960 0 
12, 1990 692660| 119916| 788043 0 1853| 786190| 786190 786,191 1 
13, 1991 716154| 120566| 810790 0 4980| 805810] 805810 805,812 2 
14| 1992 729255| 124172| 831990 0 4342|  827648| 827648 827,649 1 
15| 1993 770416| 126702| 872485 0 3469| 869016| 869016 869.018 2 
16, 1994 809963| 130881| 917649 0 3300| 914349| 914349 914,353 4 
17| 1995 868253| 143220| 979829 0 3538| 976291| 976291 976,291 0 
18, 1996 912620| 148880| 1029506 11 3576| 1025919| 1025919 1,025,924. 5 
19) 1997 947110] 145127! 1058663 0 3238| 1055425| 1055425 1,055,425 0 
20| 1998 955170| 142861| 1060579 1057046 bi 
21| 1999 985472| 145541| 1088433 1085203 2 
22, 2000 995775| 153733| 1104475 0 
23, 2001 992292| 144605| 1093975 i 
24| 2002 1040896]  142628| 1138935 0 3929| 1135006| 1135006 : = 007 1 
25, 2003 1087331| 146856] 1183682 8 4680| 1178994| 1178994 1,178,998) 4 
26 2004 1176727! 152084] 1279398; 1 4771| 1274626| 1274626, 1,274,628 2 
27| 2005 1249030| 159008| 1350455 46 6278| 1344153| 1344153 1,344,176) 23 
28| 2006 1307401| 167301| 1412071 46) 5463| 1406562] 1406562 1,406,559 -3 
29, 2007 1371752!  182203| 1484686) 5 6280| 1478402| 1478402 1,478,402 0 
30| 2008 | 1460614| 215664| 1603302 236) 42603] 1560463! 1560463 1,560,463. 0 
31 2009 1587278| 231422| 1728874 4 96069| 1632803| 1632803 1,632,802 E 
32, 2010 1653621|  250284| 1803152 10! 118915| 1684230| 1684230 1,684,230 0 
33| 2011 1754696| 263565] 1909387 1764673 0 
34| 2012 1836305| 280281, 1998884 147724| 1851127 0 
35, 2013 1940271|  286675| 2098747 156579| 1942116 1 
36, 2014 1998373| 291355| 2158152 1994340 -43 
37, 2015 2068182|  309819| 2240064 183779| 2055766 -1 
38, 2016 2164246| $341904| 2351614 199490| 2151960 2 
39| 2017 2259533|  369273| 2439987 226127| 2213388 9 
40, 2018 2355404|  394224| 2543038 241108| 2301495! 2302569 2,302,558 At 
41, 2019 2554931|  430379| 2755201 = 323822| 2426346] 2528997 2,529,007 10 
42| 2020 3164900| 558798| 3433717 19581| 833204] 2583631| 2718654 2,719,228 574 
43| 2021 | 1301782| 221154] 1418922 9725| 282117| 1129430| 1130077 1,127,543) -2,534 
Apr ME 
图 9 数据 实时 性 评价 
Fig.9 Evaluation of data real-time 
用 户 管理 [gmoo | exti «| - 
上 -页 | Fa | 
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图 10 数据 准确 性 评价 


Fig.10 Evaluation of data accuracy 
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同一 数据 进行 描述 而 不 存在 差异 的 评价 ， 包 括 数据 包 
是 否 符合 约定 形式 ， 数 据 是 否 符合 数据 标准 ， 数 据 项 
V LM AA 可 以 在 数据 接 入 前 或 接 和 后进 

监控。 以 数据 符合 标准 一 致 性 为 例 ， 对 接收 的 WOS 
m E. 一 致 性 达 90%。 


总 结 与 展望 


本 文 以 数据 生命 周期 为 出 发 点 ， 探 究 科 技 文献 生 
命 周 期 管理 的 关键 核心 ， 立 足 数 据 管理 全 流程 应 用 ， 
以 科技 文献 数据 为 基础 ， 从 创建 、 存 储 、 预 处 理 、 计 
算 、 服 务 、 归 档 、 销 毁 7 个 阶段 为 重点 实施 步骤 进行 
实践 探索 ， 基 于 WOS BP 核心 数据 集 实 施 了 上 文 提出 
的 数据 生命 周期 管理 模型 ， 然 后 从 数据 质量 评 佑 维度 
进行 了 完整 性 、 唯 一 性 、 实 时 性 、 有 效 性 、 准 确 性 、 
一 致 性 等 6 个 维度 的 评价 核验 ， 基 本 解决 了 科技 文献 
数据 在 每 个 生命 周期 阶段 都 可 以 进行 有 效 的 管理 和 应 
用 问题 。 最 终 管理 模型 初 具 成 效 ， 并 达到 良好 的 服务 
效果 。 

但 仍 存在 很 多 问题 和 挑战 ， 在 接 下 来 的 工作 中 将 

一 步 完 善 和 改进 。 首 先 ， 在 科技 文献 生命 周期 管理 
RIT 9 能 技术 引擎 ， 紧 随 国家 “新 基建 ”战略 
部 署 ， 让 数据 管理 更 智能 更 全 面 。 其 次 ， 在 数据 生命 
dl red 
打通 多 模 态 数据 智能 管理 渠道 。 最 后 ， 进 一 步 提升 数 
据 生命 周期 管理 的 实际 应 用 效果 , DNE 
度 的 数据 形态 ， 提 升 数据 服务 水 平 。 
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Scientific and Technical Literature Data Management System 
Based on Life Cycle Model 


CHANG ZhiJun'’, XU LiYuan", YU QianQian', ZHANG JianYong” WANG YongJi? 
(1. National Science Library, Chinese Academy Sciences, Beijing 100190; 2. Department of Library Information and Archives 
Management, National Science Library, Chinese Academy of Sciences, Beijing 100049; 3. State Key Laboratory of Computer Science 


Institute of Software, The Chinese Academy of Sciences, Beijing 100190) 


Abstract: [Purpose/Significance] Scientific and technical (S&T) literature data resources are characterized with wide coverage, large 
quantity, many types, fast update and strong timeliness. In order to improve the effect and security of S&T literature data management, 
this paper studies the S&T literature management system based on the data life cycle model. [Method/Process] This paper explores the 
management mode of S&T documents, constructs the life cycle system of S&T documents based on the data management process, and 


expounds the data management tools and methods from the stages of data creation, data storage, data pre-processing, data calculation, 
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data service, data archiving and data destruction. In the data creation stage, specific data access forms are formulated for different 
sources and data types, and personalized data creation tools are built to receive data completely. In the data storage stage, a unified 
document metadata storage system is developed by analyzing the characteristics and shortcomings of various types of data, so as to better 
explain and organize scientific and technological document data. In the data pre-processing stage, various tools are built to realize the 
formatting pre-processing, parsing, conversion, structuring and other operations of various types of data. In the data computing stage, 
data enrichment processing, entity relationship extraction and knowledge graph construction are mainly completed. Data provides 
services through a unified service interface. Data archiving completes data archiving and saving. In the data destruction phase, 
unnecessary data is safely destroyed. [Results/Conclusions] In this paper, the management and practice based on the life cycle of S&T 
literature were first carried out based on the core data set Web Of Science BP data , and then explored from the seven phases of creation, 
storage, pre-processing, calculation, service, archiving and destruction. Finally, based on the DAMA data quality evaluation principle, 
the comprehensive evaluation and evaluation of the data management effect were carried out from the six dimensions of integrity, 
uniqueness, real-time, validity, accuracy and consistency. The receiving integrity of data was 100%, and the non-null integrity of data 
was 59.75%. The uniqueness of data reached 99.23%. The real time of data was controllable. The validity of data met the constraint 


conditions. The accuracy of the data reached 100%. The consistency of data reached 90%. It basically solved the problem that data can 


be effectively managed and applied in each life cycle stage. Finally, the management model was verified to take effect and achieve 
desirable service effect. 


Keywords: life cycle management; scientific and technical (S&T) literature; data management; big data governance; knowledge graph 
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